临床研究中危险因素分析的统计思路与统计图表
The following article is from 统技思维 Author 谷子歌
文章来源: “统技思维”公众号 (微信号:StatsX)。感谢作者授权。
在实际的临床研究中,研究者经常碰到一类问题:如影响卒中复发的影响因素有哪些?影响静脉溶栓患者的预后因素有哪些?此即危险因素分析的范畴。危险因素分析目前鲜有文献专门论述,但此话题确实是临床研究中容易忽略的一块重要内容。
本文将结合研究实例阐述临床研究中危险因素分析所涉及的统计思路和统计图表。
1 危险因素的概念与分类
危险因素(risk factor)这一概念此前学术界一直认为来自著名的福明翰心脏研究 (Framingham Heart Study) 1961年的一篇研究报道,而据Jones等人的考证表明:早在19世纪末20世纪初,“危险因素”就见诸于保险、金融、农业以及制造业。20世纪50年代,“危险因素”开始再现于精神病学、外科学、心脏病学以及流行病学领域。1961年福明翰心脏研究论文发表后,“危险因素”这一术语并未立即流行起来,直到20世纪70年代中期,危险因素才广为人知。
关于危险因素,不同学者有不同的定义, 但其要义均相同:增加某疾病、伤害或者不良结局发生概率的因素。危险因素的概念顺应了病因学认知的不断发展。按危险因素的观念来看,若某因素F是某疾病D的病因,则有F并不意味着必有疾病D,只是发生疾病D的可能性更高。不过,危险因素并不等同于病因(cause),也无法揭示疾病的机理,一些危险因素和疾病只是统计学上的关联。
危险因素涉及的内容广泛,通常可将分为基因、环境(水、空气以及同事关系等)、人口统计学(性别、年龄等)、生理(血压、血脂、血糖等)以及行为(吸烟、饮酒等)五个方面。
一些危险因素可以改变,如环境状况、生理指标以及行为,称之为可变危险因素(modifiable risk factors); 而另一些影响因素,如基因、性别等,不可改变,此即不可变危险因素(non-modifiable risk factors)。
可变危险因素是特别值得关注的因素。和不可变危险因素不同,若可变危险因素通过健康教育和行为干预得以改变,则有可能降低疾病、伤残以及不良结局的发生的概率。因此,可变危险因素就有重要的公共卫生意义。此外,当终点为不良结局时,也有文献将OR/RR/HR值小于1的因素称为“保护因素”。广义的危险因素是包含“保护因素”的。
2 危险因素分析的展现形式与案例分析
危险因素分析的结果展示,不同的文献中有不同的形式,例如,同样是关注抗凝药物的使用,研究者们采用了各种不同的表格展示结果,具体图1。笔者结合个人经验,总结其最完备通用形式如表1。
图1. 危险因素分析的统计表格实例
表1. 危险因素分析的统计表格推荐形式
此表不仅展示了危险因素的效应值及其95% CI, 也包含了基本的描述性统计信息。危险因素从统计特性上分连续变量和分类变量。危险因素为连续变量时,除了计算其每增加一个单位的效应值外,研究者通常会自己指定自变量的变化单位,如每增加5岁、每增加一个标准差等。危险因素为分类变量时,如果能增加分类变量各类分层的人数,事件数及相应的比例,则可提供更直观的信息。
危险因素分析中,最常见的结局变量为二分类变量或者生存数据。因此,常用的效应指标为比值比(Odds ratio, OR)或者风险比(Hazard ratio, HR)。相对危险度(Risk Ratio, RR)虽然是队列研究中最适宜的效应刻画指标,但其统计特性不如OR,譬如计算校正的RR就不如校正的OR直观方便,因此RR在危险因素分析中使用较少,尤其是观察性研究中。危险因素分析的结局变量为连续变量时,效应指标可采用回归系数及其95% CI,不过此情形很少见。
除了统计表格,森林图也是危险因素分析常见的一种展现形式,如一项探讨早发性缺血性卒中的危险因素研究便将效应指标及其95% CI绘制成森林图,使得结果更为直观形象,具体见图2。完备通用的危险因素森林图可见图3。此图不仅展示了精确的效应数值,也包含了基本的统计描述信息。
图2. 危险因素分析的森林图实例
图3. 危险因素分析的森林图推荐形式
3 危险因素分析的统计方法与实现工具
危险因素分析的统计方法与实现工具与此前所述的效应估计方法基本相同。线性回归、Logistic回归以及Cox比例风险回归是三种最为常用的危险因素统计方法,研究者可依据不同的终点指标类型选择适宜的回归模型,本文不再赘述。
不过需留意一点,危险因素分析与效应估计的出发点不同:危险因素分析是从众多潜在的因素中寻找、识别高危因素,从而为健康教育与行为干预提供依据;而效应估计则是关注某特定因素的效应,需要控制其它混杂因素,以便获得更加准确的效应估计。
此间的差异在其结果的展现表格中也得以体现。危险因素分析表格中常常仅列出有统计学意义的因素,而效应估计表格通常仅列出关所注因素的效应估计,校正的混杂因素在表格下方的注解中说明即可。
Logistic回归中通过SAS的PROC LOGISTIC的PLOTS=(ODDSRATIO)选项可直接生成危险因素分析的森林图。不过绘制危险因素分析森林图的通用思路是:先通过模型拟合获得效应值及其95% CI, 然后利用获得的数据绘制森林图。
SAS软件可以通过PROC SGPLOT过程的DOT语句绘制带置信区间的点图实现,或者通过PROC SGPLOT过程的HIGHLOW语句配合SCATTER语句实现。若是带文字的森林图,则需PROC SGPLOT过程的YAXISTABLE、HIGHLOW以及SCATTER等多个语句配合实现,或者利用更灵活的SAS绘图模板语言(Graph Template Language , GTL)。
R软件则可通过forestplot 软件包轻松实现各种复杂森林图的绘制,各位读者可依据自己喜好和熟悉度自行选择。
关注“统技思维”微信
查看临床研究统计分析思路与统计图表系列文章
更多阅读
关注医咖会,提升临床研究能力
快加小咖个人微信(xys2018ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看70种SPSS教程。